计算机视觉与数字图像处理导论
计算机视觉是人工智能的一个领域,使计算机能够从数字图像和视频中提取有意义的信息,有效尝试弥合语义鸿沟原始像素数据与人类理解水平之间的差距。数字图像处理是计算机视觉的基础层,专注于通过像素到像素的变换对图像信号进行操作和增强,为更高层次的解释性任务准备数据。
核心原则
- 数据表示:在机器层面,图像是一种数值张量而非整体图像。灰度图像是强度值的二维矩阵,而彩色图像则是表示红、绿、蓝(RGB)通道的三维张量,尺寸为 $H \times W \times 3$。
- 变换与解释:数字图像处理主要关注图像到图像的操作,如降噪、锐化或直方图均衡化。计算机视觉则专注于图像到知识的操作,如目标分类、定位和分割。
- 逆向图形范式:计算机视觉可以看作是计算机图形学的逆过程。图形学试图从数学模型生成视觉世界,而视觉则试图从二维投影中恢复三维结构和语义标签。
核心挑战
该领域的首要挑战是语义鸿沟,即机器处理的低级像素值与人类感知的高级概念之间的脱节。
Python 实现
问题 1
哪种过程被归类为图像到知识的操作?
问题 2
在机器层面,标准彩色图像的数据结构是什么?
案例研究:医学诊断系统
阅读以下情景并回答问题。
一家医院正在开发一种新的自动化医学诊断系统,旨在分析X光扫描以检测潜在的骨折。该系统处理来自X光机的原始传感器数据,并为放射科医生生成诊断报告。
问
1. 如果系统应用对比度增强以使骨骼结构更清晰,这是数字图像处理(DIP)还是计算机视觉(CV)?
答案:
数字图像处理。对比度增强是一种图像到图像的变换,可提升信号的视觉质量,而不提取语义信息。
数字图像处理。对比度增强是一种图像到图像的变换,可提升信号的视觉质量,而不提取语义信息。
问
2. 如果系统自动将某个特定区域标记为潜在骨折,它在执行什么任务?
答案:
计算机视觉 / 目标检测。系统正在解释图像内容以提取高层次知识(定位骨折)。
计算机视觉 / 目标检测。系统正在解释图像内容以提取高层次知识(定位骨折)。
问
3. 为什么在运行检测算法之前需要进行降噪?
答案:
为了提高信号质量,并减少语义解释阶段的误报。噪声可能被计算机视觉算法误认为是实际特征或边缘。
为了提高信号质量,并减少语义解释阶段的误报。噪声可能被计算机视觉算法误认为是实际特征或边缘。